AgentIF-OneDay 发布,评估全场景长时复杂任务
AgentIF-OneDay 发布,评估全场景长时复杂任务随着大模型在单点推理上日益逼近 PhD 水平,Agent 领域迎来了新的分水岭:短程任务表现惊艳,长程任务却显乏力。为精准评估大模型的多模态理解与复杂问题解决能力,红杉中国在两周内连续发布两篇论文,旨在通过构建更科学的评估基准,预判技术演进的未来方向。
随着大模型在单点推理上日益逼近 PhD 水平,Agent 领域迎来了新的分水岭:短程任务表现惊艳,长程任务却显乏力。为精准评估大模型的多模态理解与复杂问题解决能力,红杉中国在两周内连续发布两篇论文,旨在通过构建更科学的评估基准,预判技术演进的未来方向。
Claude Skill 很火,甚至已经超越 MCP 了,如今各家的 cli 客户端基本也都支持,扣子、MiniMax 的 agent 产品也都上架了类 Skill 的产品。而且不仅仅是对普通用户有用,从开发者视角来看,通用 Agent 内核,只靠 Skills 设计,也能低成本创造具有通用 AI 智能上限的垂直 Agent 应用。
这两天都在研究 ralph,一个你睡觉时,都能不眠不休替你干需求、榨干任何 Coding Agent 的工具。
今天,MiniMax Agent 2.0 推出了 Desktop App,能操作本地文件、自动化网页操作。MiniMax Agent 2.0 这次更新了两个核心能力:一个是 Desktop App,一个是 Expert Agents。
当 DeepSeek 和 OpenAI 的核心突破者越来越年轻,传统的简历筛选正在失效。一位前阿里达摩院的研究员,试图用 Agent 编织一张能捕捉「下一个 Ilya」的网。
Claude Cowork 火了,基于本地的 AI Agent 产品突然成为大家关注的重点。
扣子2.0,今天正式上线。 2024年2月1日,「扣子」第一次和你见面。我们怀着对 AI 能力的憧憬,在扣子里不断拖拽工作流节点、反复优化提示词,只为真的能把活儿交给AI。 直到今天,扣子已经陪你走过了七百多个日夜,拥有了上千万的用户。
在全球AI共识下,Agent Skill成为新战场。在国内,字节扣子率先推出Coze Skill,让你的方法论、个人心得瞬间封装成可复用包;加上长期任务的「目标导向协作」,AI帮你拆解步骤、执行计划,真正实现「人类经验注入AI智能体」。
今天是一期硬核的话题讨论: Coding Agent 评测。 AI 编程能力进步飞速,在国外御三家和国产中厂四杰的努力下,AI 编程基准 SWE-bench 的分数从年初的 30% 硬生生拉到了年底的
我们对 Coding Agent 的评测,可能搞错了方向。 一个反复出现,但常常被忽略的现象是:用户对 Agent 的不满,往往不是因为它「做不到」,而是因为它「做得不好」。 「做得不好」集中表现在: